Learning from human preferences
https://openai.com/index/learning-from-human-preferences/
OpenAI 2017
Atari
バク転をさせたい。人間はどちらがバク転しているか判定
AIは人間の選択を最もよく説明する報酬関数を見つける(TODO 原文確認)